Проект РНФ № 12-34-567890 – заявка в удобном для
чтения формате
Обновлено: 14.06.2023
Приоритетное направление развития науки, технологий и техники в Российской Федерации, критическая технология
Направление: 6. Рациональное природопользовани
Технология: 19. Технологии мониторинга и прогнозирования состояния окружающей среды, предотвращения и ликвидации ее загрязнения.
Информатика биоразнообразия, экология, зоология, биогеография, геоинформационные технологии, ГИС, пауки, Araneae, Урал
Английский:
ГИПОТЕЗЫ!!!
| 1. Созонтов Артём Николаевич, 33 года, к.б.н. (руководитель). Институт экологии растений и животных УрО РАН, научный сотрудник (трудовой договор) | |
| 2. Иванова Наталья Владимировна, 33 года, к.б.н. (исполнитель). Институт математических проблем биологии – филиал Института прикладной математики им. М.В. Келдыша РАН, старший научный сотрудник (трудовой договор). | |
| 3. Соколова Софья Сергеевна, 27 лет (исполнитель). Ильменский государственный заповедник УрО РАН, младший научный сотрудник (трудовой договор), к моменту начала проекта предполагается начать обучение в аспирантуре Института экологии растений и животных УрО РАН. | |
| 4. Устинова Анастасия Леонидовна, 23 года (исполнитель). Пермский национальный исследовательский университет, аспирант. |
Созонтов А.Н. в течение последних 10 лет занимается фауной, экологией и биогеографией пауков, последних 5 лет – информатикой биоразнообразия, обработкой и анализом данных, пространственной эколгией, геоинформационными технологиями, а также читает по этим направлениям курсы для студентов бакалавриата, магистрантов и аспирантов. По результатам этой работы опубликовано более 10 работ в журналах, индексируемых в списках WoS/Scopus и одна монография. Разработал несколько авторских скриптов и онлайн-приложений для управления данными о биоразнообразии. В дополнение к научно-педагогической деятельности занимается популяризацией науки о живой природе.
Иванова Н.В. более 15 лет работает в области информатики биоразнообразия и закономерностей пространственного распределения живых организмов. Последние 10 лет активно занимается повышением квалификации отечественных исследователей в отношении стандартов и качества данных о распространении и разнообразии живых организмов. Обеспечивает организационную и техническую поддержку национального портала, посвященного открытым данным о биоразнообразии. На эти темы в журналах, индексируемых в списках WoS/Scopus Иванова Н.В. опубликовала более 10 статей только за последние 5 лет.
Соколова С.С. выпускница пермской арахнологической школы и имеет 5 научных публикаций. Работает в системе природоохранных организаций, в дополнение к этому занимается популяризаторской деятельностью, повышает свою квалификацию в области организации Citizen Science проектов, участвуя в круглых столах, вебинарах, онлайн и .
Устинова АЛ. аспирантрка пермской арахнологической школы, владеет навыком работы в библиографичеких информационных системах. При консультационной поддержке А.Н. Созонтова освоила стендарты данных о биоразнообразии и методы работы с ними.
На основе полученного набора данных для крупных регионов возможен мониторинг состояния окружающей среды и природных ресурсов по биологическому контролю за насекомыми-фитофагами. Это позволит оценить текущий биологический и экономический эффект для сельского и лесного хозяйства, а также спрогнозировать величину этого эффекта при других технологиях хозяйствования и/или изменении климата. Эти оценки могут стать теоретической основой для принятия управленческих решений как на частном уровне, так и на административном. Кроме того, разработанные технологии вовлечения больших данных в общедоступный оборот помогут разработать аналогичные наборы данных для других регионов и групп живых организмов.
Научная деятельность
Обобщены и проанализированы многолетние сборы пауков в Удмуртской Республике, в т.ч. предложен комплексный подход к синэкологическому анализу группировок пауков, соответствующий общемировым трендам в количественной обработке данных [Созонтов, 2018]. Полученный первичный материал, снабженный экспертными и аналитическими оценками по каждому из четырех сотен видов, представлен в традиционном формате в виде монографии [Sozontov, Esyunin, 2022], а также в виде набора данных по стандарту DarwinCore [Sozontov, 2021]. Эти же наработки применены к многолетним данным пауков Висимского биосферного заповедника [Sozontov, Esyunin, Ukhova, 2023 in print]. Выявлены первые стадии восстановления паукообразных и жужелиц после снижения выбросов медеплавильного завода, описана их специфика [Бельская и др., 2023 in print; Созонтов и др., 2022]. Проанализированы многолетние изменения β-разнообразия сообществ мелких млекопитающих в зоне действия медеплавильного завода в контексте снижения количества выбросов [Mukhacheva, Sozontov, 2021]. При непосредственном участии А.Н. Созонтова первые в России начаты исследования функционального разнообразия членистоногих почвы и напочвенной подстилки [Малых, Созонтов, 2022]. Предложил аналитический алгоритм для оценки коэффициентов сходства и мер расстояния [Rodionov, Sozontov, 2020; Родионов, Созонтов, 2019] – основы кластерного, ординационного и других форм анализа многовидовых сообществ. Разработаны частные решения по сопоставлению данных разного формата, качества и происхождения [Созонтов, 2023]. В качестве эксперта по обработке и стандартизации данных о биоразнообразии принял участие в двух териологических проектах [Mukhacheva, Davydova, Sozontov, 2022; Гасилин и др., 2021].
Научно-организационная и просветительская деятельность
Принял участие в организации пяти всероссийских научных мероприятий («Экология: факты, гипотезы, модели. Конференция молодых ученых, 2019, 2021, 2022, 2023, организатор, член комиссии, редактор сборника; VII полевая школа по почвенной зоологии и экологии, 2021, секретарь) и одного международного (IV Международное арахнологическое совещание «ArachnoMeeting», 2021, председатель). На профильной арахнологической секции апробирован и согласован план проекта по мобилизации данных [Созонтов, 2022]. Разработал ряд онлайн-приложений по управлению данными о биоразнообразии: конвертор табличных данных в формат DarwinCore (sozontov.shinyapps.io/gbif), тип `occurrence`; приложение для поиска и картографической визуализации микологических находок Евразии; комплексная карта-приложение по первичным данным о различных компонентах биоты в условиях точечного промышленного загрязнения тяжелыми металлами. Совместно с центром популяризации биоразнообразия «НатУРАЛист» занимается популяризацией с 2019 года: проводит до 4 энтомологических экскурсий за летний сезон, читает публичные лекции в зимний период.
Педагогическая деятельность
Преподает в Уральском федеральном университете (с 2019 г. по наст.вр., предметы: «Модели в экологии», «Современные методы обработки данных»), преподавал в Удмуртском государственном университете (c 2016 по 2019 г., предметы: «Математические методы в биологии», «Компьютерные технологии в биологии», «Полевая практика по биоразнообразию»). В должности старшего преподавателя отдела аспирантуры ИЭРиЖ УрО РАН преподаёт аспирантам второго и третьего года обучения (предметы «Статистическое сопровождение экологических исследований» и «Современные методы обработки данных» соответственно). Руководил работой над магистерскими диссертациями (2), дипломной работой специалиста (2), дипломными работами бакалавров (8).
Проект направлен на решение проблемы возврата первичных данных о разнообразии живых организмов в оборот многократного использования. Будучи однажды полученными, они не всегда оказываются опубликованными в печати, существуя только на музейных этикетках, в полевых дневниках, лабораторных журналах и других рукописях. В случае же их публикации в традиционном формате, возможности многократного использования все равно существенно осложнены рядом одновременно требуемых условий: 1) знать о существовании каких-то публикаций (эта проблема со временем становится лишь острее в связи с экспоненциальным ростом количества научных публикаций [Bornmann, Haunschild, Mutz, 2021] и журналов [Thelwall, Sud, 2022]); 2) получить текст публикаций (если информация не в тексте, а в приложении, тогда и приложение к статье тоже необходимо получить); 4) владеть языком, на котором дана информация; 5) вручную переписать или скопировать информацию; 6) привести информацию из разных источников «к общему знаменателю». Даже когда все требования соблюдены, это отнимает огромное количество времени, на порядки задерживает скорость работы и скорость накопления доступных для использования данных.
Существуют технические средства, использование которых снимает все обозначенные выше затруднения и даёт возможность получать колоссальные объёмы данных посредством поисковых запросов через пользовательский интерфейс, API или консольные запросы. Однако здесь появляется новая проблема – эти самые данные уже должны быть оцифрованы (а также стандартизированы и вычищены) и представлены в БД [Созонтов, 2023]. Предлагаемый проект прокладывает мост между прошлым и будущим, по которому массивы открытых данных о биоразнообразии смогут пополняться ценнейшей информацией из литературного наследия, в настоящий момент неиндексируемой и необнаружимой средствами поиска.
Более 10 лет назад стала очевидной глубокая зависимости фундаментальной экологии (и на локальном, и на глобальном уровне) от высококачественных данных по широкому спектру таксонов и регионов. Бек с соавторами [Beck и др., 2012] считают вопросы аккумуляции и использования данных одним из четырех ключевых направлений современной экологии и биогеографии. Они, будучи оцифрованными, качественными и проиндексированными, служат важной основой для решения множества фундаментальных и прикладных проблем, позволяя даже с традиционными подходами работать в глобальном масштабе [Hoogen и др., 2020; Phillips и др., 2021] и/или в высоком пространственном разрешении [Keil, Chase, 2019].
Собственно говоря, агрегирование данных изначально было одной из задач науки о биоразнообразии, пусть и не всегда формулируемой в явном виде [Ball-Damerow и др., 2019; Nelson, Ellis, 2018]. В ряде случаев решение этой задачи осложнено или невозможно (см. раздел 4.1): данные однажды получены, но остаются неиндексируемыми и необнаружимыми. Возвращение таких «темных данных» в научный оборот – одно из ключевых направлений развития науки в XXI в. [Heidorn, 2008], что в полной мере касается и наук об окружающей среде [Amano, Lamming, Sutherland, 2016]. В сравнении с другими «большими вызовами», здесь нет концептуальных проблем, но сам процесс рутинный и трудоёмкий. Необходимы оригинальные решения по его интенсификации и популяризации.
Для данных о биоразнообразии сейчас существуют агрегаторы (см. раздел 4.5) и разработанные научным сообществом стандарты, например DarwinCore [Wieczorek и др., 2012], HumboldtCore [Guralnick, Walls, Jetz, 2018; Schneider и др., 2019] и др. Это чрезвычайно важный этап, благодаря которому решение множества экологических вопросов продвинулось далеко вперед, опубликованы десятки тысяч статей. Тем временем все ещё большой объем данных остается не отражен в агрегаторах, а сами они – изолированны друг от друга [Feng и др., 2022], пока лишь некоторые из них работают над взаимной интеграцией. Специалисты ожидают, что именно эти проблемы будут решены на следующем этапе крупного приращения знаний о биоразнообразии Земли, через интеграцию баз данных о биоразнообразии и вовлечение в них упускаемых пока что «темных данных» [König и др., 2019; Hobern и др., 2019]. Впрочем, достаточность этих двух задач вызывает сомнения, поскольку это само по себе напрямую не приводит к аналогичному увеличению объема знаний и глубины понимания экологических закономерностей [Feng и др., 2022]. Соответственно, необходимы новые подходы, облегчающие поиск, доступ, интеграцию и повторное использование данных о биоразнообразии.
Важно отметить, что специалисты по информатике биоразнообразия не считают глобальные порталы-агрегаторы способными удовлетворить все потребности в данных. Необходимость национальных и даже региональных ресурсов обусловлена их возможностями учитывать местную специфику природных условий и приоритетных [Belbin, Williams, 2015; Schulman и др., 2021]. Это полностью релевантно и для России, и для её регионов [Ivanova, Shashkov, 2017].
Разработка веб-приложения для занесения литературных данных о находках пауков
Запуск Citizen Science проекта по оцифровке литературных данных о разнообразии и распространении пауков Урала и Предуралья
Разработка методов машинного обучения для оцифровки литературных данных и сравнение их эффективности с Citizen Science проектом
Интеграция оцифрованных данных с внешними ресурсами и источниками по условиям среды, филогении и функциональным признакам (traits) пауков
Размещение полученного набора данных в сети и организация открытого доступа к нему
Масштаб работы. Перечисленные задачи полностью находятся в рамках общенаучного тренда на размещение в открытых репозиториях и базах данных всей первичной информации. С использованием пауков уральского региона в качестве примера, будут созданы и отлажены технологии мобилизации данных о находках живых организмов и интеграции этих БД с другими ресурсами. Разработанные технологии могут быть успешно масштабированы до любого региона и/или адаптированы для других групп живых организмов.
Комплексность работы. Проект является междисциплинарным, на стыке классических наук о жизни (экологии, зоологии, биогеографии) и науки о данных, а также содержит элементы популяризации. Исполнители имеют классический естественно-научный бэкграунд (все), высокую квалификацию по информатике биоразнообразия и обработке данных (Созонтов А.Н., Иванова Н.В.) и опыт популяризаторской деятельности (Созонтов А.Н., Соколова С.С., Устинова А.Л.).
Необходимость сбора новых данных и многократного из использования – по-видимому общее место экологической академической тусовке [Reichman, Jones, Schildhauer, 2011]. Одни исследователи отмечают интенсивный (и даже экспоненциальный) рост объема биоданных [Bisby, 2000; Hobern и др., 2019]. Другие – активно эти данные используют в своей работе, сводя к минимуму усилия на обработку больших объемов литературы и/или полевые фазы исследования [Ball-Damerow и др., 2019]. В качестве примеров реализации такого масштабного подхода можно привести публикации по растениям Европы за последнее столетие [Staude и др., 2022], глобальным паттернам разнообразия растений [Cornwell и др., 2019], распространению и охране птиц [Sullivan и др., 2017], по миграциям животных высоких широт [Davidson, Ruhs, 2021], теории и практике охраны природы [Di Minin, Correia, Toivonen, 2022] и многие другие.
В основе успешного многократного использования данных лежат принципы FAIR – Findability (обнаружимость), Accessibility (доступность), Interoperability (совместимость), Reusability (возможность повторного использования), в сформулированных почти 10 лет назад [Wilkinson и др., 2016]. По реализации почти всех принципов достигнут существенный прогресс посредством агрегаторов, индексирования и даже устоявшегося лицензирования [Escribano, Galicia, Ariño, 2018], и только «совместимость» по-прежнему пребывает фазе активной разработки. Примеров успешной асимметричной интеграции достаточно много. В качестве можно привести агрегирование данных о встречаемости видов из iNaturalist в GBIF, хотя первый ресурс содержит мультимедиа, которые не агрегирует второй, а обратного потока данных нет совсем [Feng и др., 2022]. Полностью симметричная интеграция, по-видимому, невозможна, т.к. каждый ресурс имеет свои уникальные особенности и решения.
Нередко разные подходы к решению одних задач снижают чистоту данных. Одни базы данных проявляют гибкость по отношению к номенклатуре, другие более консервативны, что препятствует совместимости. Пространственные данные тоже быть причиной рассогласования. Например, находка без координат может быть по-разному обработана разными ресурсами, использующими разные алгоритмы геопривязки, что приведет к двум разным наборам координат для одного и того же наблюдения [Reddy, Dávalos, 2003; Serra-Diaz и др., 2017]. Одним из решений может быть создание общего стандарта и инструментов для оценки и очистки данных [Belbin и др., 2018; Mesibov, 2018]. Второй, впрочем не исключающий первый, - разработка протоклов перекрёстных ссылок между идентификаторами различных БД [Page, 2018]. При своей эффективности, он не отличается технологической простотой и легкостью освоения, поэтому сложно спрогнозировать насколько этот подход будет распространён в дальнейшем. Так или иначе, и концепция Open Science, и FAIR принципы – мощные драйверы развития науки, и из них вытекает возможность интеграции, что дающие синергетический эффект от обогащения одних больших данных другими. И пусть не проблемы на этом пути решены, и не для всех решение просматривается, консенсусно считает что это именно то, чем стоит заниматься [Ball-Damerow и др., 2019; Page, 2008].
Собственно примеров баз данных о биоразнообразии огромное количество, в т.ч. и очень успешных и востребованных примеров, и в рамках краткого обзора невозможен ни исчерпывающий обзор, ни даже перечисление [Ariño, 2010; Owens и др., 2021]. Ключевой и наиболее универсальный из них – GBIF (Global Biodiversity Information Facility). Количество находок там удваивается каждые 1.5-2 года и к настоящему моменту превысило 2.3 млрд. Кроме своей непосредственной функции он предоставляет ряд вспомогательных инструментов, как то The Integrated Publishing Toolkit (IPT), Data validator, GBIF Registry of Scientific Collections и другие. Остальные ресурсы первичной информации специализированы на таксоне (например, eBird для птиц [Sullivan и др., 2014; Sullivan и др., 2017]) или регионе (Atlas of Living Australia для Австралии [Belbin и др., 2021], Biodiversity information system for Europe и PESI для Европы [De Jong и др., 2015], Information System about the Brazilian Biodiversity для Бразилии [Dias и др., 2017; Pezzini и др., 2012], Indian Bio-resource Information Network [Saran и др., 2019] и India Biodiversity Portal [Vattakaven и др., 2016] для Индии), или оба ограничения, или даже что-то более узкое [Pilon и др., 2017], или наоборот, пытаются вовлечь в себя все до чего могут дотянуться [Michener и др., 2012]
Чрезвычайно важно обогащение таких БД пространственными данными и сведениями об окружающей среде, которые используются встроенными инструментами анализа, позволяющими рассматривать миграции видов, границы ареалов, отслеживать перемещения, картографировать горячие точки биоразнообразия, моделировать численность, экологические ассоциации и многое другое [Saran и др., 2022]. Важными источниками этого обогащения служат БД функциональных характеристиках (traits) биологических видов (которые, впрочем, тоже остро нуждаются в выработке единых стандартов [Gallagher и др., 2020; Schneider и др., 2019]), например TRY plant trait database [Kattge и др., 2020], Ecotaxonomy (для животных, преимущественно почвенных) [Potapov, Sandmann, Scheu, 2019], The World Spider Trait database [Pekár и др., 2021] и другие. Из них всех наиболее комплексная - Encyclopedia of Life, действующая уже более 20 лет [Wilson, 2003]. Этот портал информацию о филогении и морфологии организмов Земли, их биотические взаимодействия и многое другое, а также встроенные инструменты анализа [Blaustein, 2009]. Один из них – Virtual Ecological Research Assistant (VERA), позволяющий анализировать экологические сообщества и процессы посредством моделирования пищевых сетей, потоков вещества и энергии в них и биотических взаимодействий [An и др., 2020; An и др., 2018]. Для получения информации о находках портал EoL использует сведения из GBIF.
Далее про филогению, связь с экологией и опережение нас.
Многообещающим проектом является «Каталог жизни плюс» (Bánki et al., 2018), который основывается на существующих, но разрозненных усилиях (таких как базовая таксономия COL и GBIF) для создания открытой, общедоступной и устойчивой консенсусной таксономии, которая может служить инфраструктура для отдельных баз данных о биоразнообразии или интеграции баз данных. Bánki, O., Döring, M., Holleman, A., & Addink, W. (2018). Catalogue of life plus: Innovating the CoL systems as a foundation for a clearinghouse for names and taxonomy. Biodiversity Information Science and Standards
Перечисленные выше ресурсы и возможности внушают оптимизм [Nelson, Ellis, 2018]. Процесс оцифровки, начавшийся более 40 лет назад, эксперты характеризуют как лавинообразный [Walter, McPherson, Guralnick, 2012; Филиппова и др., 2017]. Важную роль в этом играют усилия волонтёров (подробнее о Citizen Science см. ниже) и со временем эта роль только возрастает [Chandler и др., 2017]. Однако все еще нуждается в оцифровке, географической привязке, индексировании огромное количество данных о биоразнообразии [Reichman, Jones, Schildhauer, 2011; Saran и др., 2022]. В первую очередь это касается таких источников как музейные и частные коллекции, опубликованная литературы, рукописи, полевые дневники.
В США существует национальный портал «Интегрированные оцифрованные биоколлекции» (iDigBio) по продвижению оцифровки. В её фокусе коллекции – биологические и палеонтологические, фотографии образцов и связанные с ними данные. BioCollect, разработанный организацией Atlas of Living Australia, еще более продвинутый и удобный инструмент для сбора данных биоразнообразии, экологии и управлении природными ресурсами (NRM). Он принимает неструктурированные данные в виде «серой литературы» (не только не оцифрованной, но и не индексируемой библиографическими системами), файлов данных, изображений, звуков и видео. С BioCollect тесно сопряжена краудсорсинговая платформа DigiVol, предназначенная для оцифровки изображений и коллекционных материалов, идентификации, маркировки, распознаванием данных с этикеток и других текстов, в т.ч. из исторических документов [Alony и др., 2020]. Для предлагаемого нами проекта важно отметить, что это наиболее близко к тому, что мы предлагаем, просто менее сконцентрированное концептуально и более сконцентрированное географически.
Впрочем, дижитализация не лишена проблем [Hardisty, Roberts, The Biodiversity Informatics Community, 2013; Hortal и др., 2015], где помимо технической стороны вопроса, есть и субъективный человеческий фактор. Он определяет неравномерность покрытия регионов планеты данными [Park, Newman, Breckheimer, 2021], что, разумеется, неверно интерпретировать как разницу в видовом богатстве [Daru и др., 2018; Hughes и др., 2021]. Покрытие Северной Америки и Европы пробами наиболее плотное (РИС.). На контрасте с этим все еще существует 13% свободной ото льда поверхности суши, на которой в настоящее время нет достоверных географических местоположений растений (РИС.). Эти районы в основном расположены в России (несмотря на значительный недавний прогресс в обмене данными российским сообществом GBIF), Центральной и Юго-Восточной Азии и Северной Африке [Feng и др., 2022; Hughes и др., 2021].
На национальном уровне тоже всё достаточно хорошо, в тренде, оцифровка это мейнстрим [Shashkov, Ivanova, 2019]. Большую роль в этом сыграли специальные программы по мобилизации данных от GBIF и издательствао Pensoft – West of Urals (2020), и Biota of Russia (2021). Среди наиболее деятельных организаций – гербарий МГУ [Серегин и др., 2020; Серегин и др., 2020] и Югорский государственный университет [Filippova и др., 2022; Филиппова и др., 2017]. Но все это касается первичных коллекционных данных и инициатив по вовлечению натуралистов в полевые наблюдения. Инициативы по цифровизации биологических данных из литературы нам неизвестны. Оцифровка гербариев да, Оцифровка литературы едва…
Не известны и попытки интенсифицировать извлечение из текста публикаций информацию о разнообразии и распространении. Какими конкретно способами это может быть сделано? На первый взгляд эта задача решается применением регулярных выражений – синтаксических правил и последовательностей символов, определяющих шаблон поиска в тексте [Фридл, 2008]. Это хорошо работает для извлечения, структурирования и очистки больших объемов текстовых данных, представленных в одном формате [Суховеров, 2019; Козлов, Светлаков, 2022], или хотя бы в ограниченном их количестве [Krause, 2021; Созонтов, 2023]. Однако форматов представления этикеточных данных настолько много, что пришлось бы продумывать правила для каждой отдельно взятой статьи, а следовательно, задача автоматизации не будет решена.
Более перспективным путем выглядит применение методов машинного обучения с учителем. В науках о разнообразии нейросетей находят всё более широкое применение [Borowiec и др., 2022; Høye и др., 2021; Hussein и др., 2022], вплоть до моделирования экосистемных функций и услуг [Scowen и др., 2021]. Наиболее широко известны успехи идентификации видов по фотографиям гербарных листов [Carranza-Rojas и др., 2017; Unger, Merhof, Renner, 2016; White и др., 2020; Younis и др., 2018] и коллекций насекомых [Martineau и др., 2018; Høye и др., 2021; Popkov и др., 2022], однако стоит помнить, что во всех нейросетевых обработках изображений задействованы только свёрточные нейронные сети [Lim, Kim, Kim, 2017], - всего лишь одна архитектура нейросетей из множества существующих. В извлечении информации из литературы тоже есть прогресс, который сосредоточен в основном на извлечении таксономических названий [Kopperud, Lidgard, Liow, 2019; Rees, Cranston, 2017]. Однако есть и работа с не только с английскими языками и не только с таксономией. Например – испанский, морфологические характеристики [Mora, Araya, 2018].
Следующий шаг – использование онтологий, описывающих (объясняющих) случаи и закономерности взаимодействий [Karam и др., 2020; Page, 2019]. Активно это направление разрабатывают чюваки из Болгарии под руководством Л.Д. Пенева [Penev и др., 2019; Senderov и др., 2018]. Нам такое пока не нужно, сложно, но эти подходы обеспечиваются в том числе и теми сведениями, что мы добываем.
Кратко Citizen science (иногда термин переводят как «гражданская наука», но мы не находим его ни благозвучным, ни отражающим суть) – это практика вовлечения в научные проекты, людей, не являющихся профессиональными исследователями. Широкую огласку явление получило в начале прошлого десятилетия [Gura, 2013; Hand, 2010]. В наши дни в этом участвуют миллионы людей ежегодно [Callaghan и др., 2019], из них большая часть в развитых странах, а потенциал развивающихся стран раскрыт лишь в совсем малой степени [Pocock и др., 2019; Vattakaven и др., 2022].
Почему люди в этом участвуют? Становится понятны общие причины мотивации волонтеров для участия в СС и есть возможноть уточнить их мотивацию участия в конкретном проекте [Levontin и др., 2022]. Так, для участия в проекте по мониторингу насекомых внутренняя мотивация была «развлечься» и «сделать что-то (хорошее) для природы» [Richter и др., 2021], связь с природой, интерес и забота о ней [Ganzevoort и др., 2017], а внешние мотивы – «вклад в науку» и «вклад в охрану природы». При этом к денежному поощрению отношение было отрицательным [Bowler и др., 2022; Richter и др., 2021]. Любопытно, что обратная связь сгенерированная в виде текста побуждала волонтёров к большей вовлеченности и удержанию, нежели просто информация в виде уведомлений и инфографики [Van Der Wal и др., 2016], хотя динамическое отображение результатов труда волонтера тоже очень важно [Callaghan и др., 2019]. Регистраторы-добровольцы возлагают большие надежды на влияние своих данных как на собственное обучение, так и на науку и управление [Ganzevoort и др., 2017].
Самыми резонансными проектами гражданской науки становятся, в основном, астрономические и естественно-научные. Среди них: Spiral Graph – распознавание и спиральных галактик, Globe at Night – анализ светового загрязнения, GLOBE Observer Clouds – наблюдение облаков и других природных явлений для уточнения прогнозов погоды, оптимизации погодных и климатических моделей [Kohl и др., 2021], Phylo – онлайн-игра, за которой стоит выравнивание нуклеотидных последовательностей [Kawrykow и др., 2012], EteRNA – анализ трехмерной структуры РНК и поиск их биологически активных вариантов [Lee и др., 2014], Stall Catchers – анализ кровоснабжения мозга мышей в игровой форме, и другие.
[Callaghan et al., 2019] – о поощрениях, управлением мотивацией
Примеры самые известные
Очень важна и перспективна СС в науках о биоразнообразии [Amano, Lamming, Sutherland, 2016; Pocock и др., 2019]. Успешные примеры реализации это Big Seaweed Search – поиск и регистрация выброшенных на берег водорослей [Brodie и др., 2023], …
Не забыть про чай липтон
Для оптимизации ввода литературных данных мы разработаем
веб-приложение рис. 1. Такой способ даёт
кроссплатформенность – возможность использования с любого устройства
(компьютер, планшет, телефон) и любой операционной системы (Windows,
Linux, Android, MacOS, iOS) без необходимости устанавливать какое-либо
ПО, просто введя URL-адрес в браузер. У пользователя будет возможность
зафиксировать любое из введенных полей для ускоренного многократного
ввода остальных. Это актуально как для таксономических публикаций, когда
для одного таксона приводится множество находок, так и экологических,
где для одной пробы или географической точки приводится множество
таксонов. Приложение будет написано на shiny – платформе,
специализированной для созданий веб-приложений на языке программирования
R [Chang и др.,
2022; Sievert, 2020] (примеры). Ядро приложения
генерирует веб-страницу, осуществляет контроль за обработкой вводимых и
отображаемых данных, оставляет возможности для тонкой настройки
пользовательского интерфейса таблицами стилей CSS. Мы предусматриваем
встроенные механизмы проверки вводимых данных. Например, для
автозаполнения таксономических названий без опечаток ядро приложения
будет синхронизировано с базой данных каталога пауков мира [WSC, 2023] пакетом
arakno [Cardoso, 2022]. На основе каталога
ОКТМО и Росреестра аналогичный подход будет применен для названий
административных регионов, районов и населенных пунктов.
Предзагруженные (публикации, таксономические и географические
названия) и вводимые пользователями данные будут структурированы в виде
реляционной базы данных (набор таблиц, взаимосвязанных через
идентификаторы), созданной и управляемой PostgreSQL (v.14). Таблицы
базы: «пользователи», «публикации», «регионы», «таксоны» и ключевая –
«записи». Обращение из R в базу данных организует пакет ‘RPostgreSQL’
[Conway и др.,
2022]. Одна публикация будет предложена для оцифровки более
чем одному пользователю, поэтому внесенные записи будут проходить
кросс-верификацию и только в случае совпадения попадать в основную базу,
считаясь находками. Внутренняя обработка табличных данных будет
выполняться средствами пакетов dplyr [Wickham и др.,
2022] и tidyr [Wickham, Girlich, 2022],
пространственных данных – sf [Pebesma, 2018], raster
[Hijmans,
2022], stars [Pebesma, 2022], визуализация графиков
и карт – ggplot2 [Wickham, 2016] и leaflet
[Cheng, Karambelkar,
Xie, 2022]. Разворачивать приложение и систему управления
базами данных (СУБД PostgreSQL) будем на виртуальном сервере под
управлением OS Linux Ubuntu Server 22.04 LTS. Все используемые при
создании веб-приложения технологии и программы бесплатные.
Онлайн-ресурс будет содержать функции поиска – табличного и пространственного, визуализации и анализа. Мы планируем разработку модулей для подгрузки данных по условиям среды и характеристикам видов пауков. В первом случае это высота н.у.м. – SRTM Digital Elevation Model, климатические данные – WorldClim, растительность – Global Forest Watch Open Data Portal и NASA Earth Observatory, тип землепользования – OpenStreetMap и Global Forest Watch Open Data Portal. Во втором – функциональные признаки (traits) – World Spider Trait database [Pekár и др., 2021], и данные по филогении – последовательности гена COI из Barcode of Life Data System (BOLD) и консенсусные филогенетические деревья из проекта Open Tree of Life. Это позволит включать в анализ расчет не только таксономическое разнообразие, но также функциональный и филогенетический аспект биоразнообразия. Все перечисленные источники являются открытыми и их данные доступны через API (протокол обмена данными между программами напрямую, минуя интерфейс пользователя) или пакеты для R.
Для автоматизированного извлечения этикеточных данных из текстов (таксономические названия, локалитеты и координаты места сбора, дата и биотоп сбора и др.) мы разработаем нейросетевую модель методами глубокого обучения, при котором между входным и выходным слоями нейронов расположено до нескольких десятков скрытых слоёв. Исходные тексты будут предварительно разбиваться на фрагменты до 1500 знаков с перекрытием, а затем преобразованы в воспринимаемый нейросетью векторный формат набором алгоритмов Word2Vec. В качестве архитектуры самой нейросети мы опробуем Transformer и рекуррентные нейронные сети. Все перечисленные выше решения оптимизированы под учёт семантического контекста, последовательности слов, зависимостей между словами в тексте, и хорошо зарекомендовали себя задачах, требующих внимания к этим аспектам естественного языка. Обучающая выборка из 40 статей с разнообразными форматами представления этикеточной информации будет сформирована и размечена силами коллектива исполнителей. В дальнейшем мы планируем использовать для дообучения нейросетевой модели статьи, обработанные волонтерами в ходе реализации Citizen Science проекта.
Проблему потенциального переобучения модели (слишком точной подстройки под данные обучающей выборки и неспособности работать на новых, неизвестных данных) мы будем решать регуляризацией моделей. Регуляризация добавляет дополнительный штраф на определенные параметры модели, контролируя переобучение и делая её более робастной. Мы будем применять L1 регуляризацию и Dropout. Первый способ позволяет отбросить ненужные признаки, что релевантно для нашего случая, когда целевые блоки текста строго очерчены, а остальные не информативны. Второй способ случайно обнуляет некоторые из выходов слоя во время обучения, что поможет модели лучше справляться с неточностями, возникшими при распознавании сканов и опечатками, имевшимися в рукописях изначально.
В качестве пилотного таксона для проекта по оцифровке пауки удобны по ряду причин. Во-первых, их таксономия на уровне родов и видов достаточно стабильна, а номенклатурные акты и даже ошибочно указанные названия проиндексированы в регулярно обновляемом каталоге пауков мира [WSC, 2023; Nentwig, Gloor, Kropf, 2015]. Связь с его данными возможна минуя веб-интерфейс, - через API и arakno – пакет для R [Cardoso, 2022]. Во-вторых, перечень литературных источников, подлежащих оцифровке, исчерпывающий и четко очерченный. С.Л. Есюнин и К.Г. Михайлов в своих каталогах [Esyunin, Efimik, 1996; Mikhailov, 1997; Mikhailov, 2013a; Esyunin, 2023 in print] и библиографических сводках [Михайлов, 2012] тщательно учитывают все публикации по паукам России и Урала. Для Урала это 450 источников. Предварительно оценить объем данных можно взяв 8 фаунистических и таксономических публикаций в качестве примера [Esyunin, Kazantsev, 2007; Azarkina и др., 2018; Fomichev, Ballarin, Marusik, 2022; Mikhailov, 2013b; Sozontov, Esyunin, 2014; Есюнин, Новокшенов, 1992; Танасевич, 1985; Тунева, Есюнин, 2012]. Суммарно в них содержатся сведения о 1 420 находках (=occurrences – любое количество экземпляров одного вида, найденный в одной географической точке, в определенном биотопе, в одну дату и одним методом), основанных на 4 779 особях. Таким образом, общий объем «темных данных», подлежащих оцифровке, можно предварительно оценить в 80 000 находок и 270 000 особей, хотя реальное число может оказаться ниже, поскольку не все из публикаций оперируют находками.
Возможности и перспективы гражданской науки (Citizen Science, принцип действия на рис.1) были освещены в разделе 4.5. Мы реализуем оригинальный подход к оцифровке с привлечением волонтеров, чей труд по оцифровке будем поощрать просветительскими материалами и мероприятиями. Они, будучи организованными квалифицированными экспертами, эксклюзивны, что становится их ключевой ценностью.
Здесь отметим, что волонтерство не предполагает оплаты за труд, но не исключает других источников мотивации и форм поощрения. Последнее особенно актуально при ручной оцифровке данных – достаточно трудоёмком процессе. Это требует поощрения и с точки зрения этики, и с точки зрения поддержания мотивации к участию в проекте. В качестве поощрений мы планируем:
Познавательные заметки про строение, биологию, экологию и эволюцию пауков и родственных им групп
Лекции по этой же тематике
Экскурсии в природу и в естественно-научные музеи
Мастер-классы и лабораторные работы на базе университетских коллекций и материально-приборной базы.
О реализации аналогичных проектов нам неизвестно, поэтому на данном этапе установить курс мы не можем. Предварительное анкетирование и тестовый запуск приложения позволят оценить эффективность (скорость и качество) оцифровки литературы. После этого, зная общий объем источников, подлежащих оцифровке, и доступный ресурс экспертов, мы сможем установить обменный курс. Общая схема Citizen Science прокта представлена на рис. 1.
Задел по проекту
Разработана архитектура веб-приложения для оцифровки в рамках citizen
science проекта, прототипирован интерфейс его разделов для ввода данных
(рис., ссылка). Продумана архитектура реляционной БД с таблицами
«публикации», «авторы», «пользователи», «таксоны», «регионы», «записи
пользователей», «чистые данные». На базе ОКТМО (Общероссийский
классификатор территорий муниципальных образований) подготовлен набор
названий населенных пунктов и административных единиц и их соответствия
друг другу. Разработан модуль проверки названий таксонов по каталогу
пауков мира [WSC,
2023] (в обход средств пакета rgbif, которые все
равно обращаются к WSC).
Для апробации подхода собран исчерпывающий список из более чем 450 публикаций, сведения из которых подлежат оцифровке. Из них около 200 изначально цифровые, оставшаяся часть отсканирована на 30%. Получено предварительное согласие о сотрудничестве с организациями, занимающимися экологическим просвещением: центр популяризации биоразнообразия «НатУРАЛист», сообщество «Бёрдинг в Удмуртии» и др. В рамках их мероприятий анонсирован Citizen Science проект по оцифровке и собраны контакты экскурсантов, выразивших желание в этом проекте поучаствовать.
Опыт совместной реализации проектов
Созонтов А.Н. и Иванова Н.В. совместными усилиями подготовили серию пленарных лекций и мастер-классов по информатике биоразнообразия (IV Международное арахнологическое совещание, онлайн; VII полевая школа по почвенной зоологии и экологии, Екатеринбург): «Публикация данных в репозитории GBIF – риск или новые возможности для исследователей?», «Функциональный аспект биоразнообразия», «Открытые репозитории о биоразнообразии: как получить и использовать данные портала GBIF.org», «Подготовка данных о сборах почвенных беспозвоночных для публикации через GBIF», «Работа в R: преодоление психологического барьера». Соколова С.С. и Созонтов А.Н. имеют опыт совместной популяризаторской деятельности – проведения энтомологических экскурсий для детей и взрослых.
Стационарные компьютеры имеется в достаточном количестве и с соответствующими задачам проекта параметрами
Ресурсы ЦКП УрО РАН – вычислительный кластер “Уран”: 1700 CPU Intel Xeon (44 Tflop/s), 165 GPU NVIDIA Tesla (206 Tflop/s), необходимых для обучения нейронных сетей по распознаванию данных о биоразнообразии из научных публикаций
Ресурсы сервера Института экологии растений и животных УрО РАН (развертыванияе онлайн-приложения и хостинг сайта проекта)
Оптические приборы (микроскопы, бинокуляры, увеличительные стекла) и коллекционные материалы для проведения практических занятий
Инструменты для экскурсий для группы до 10 человек (сачки, пинцеты, совки, ножи и ножницы)
Собран исчерпывающий перечень литературы, подлежащей оцифровке. Большое количество источников отсканированы в pdf, недостающие источники находятся в библиотеке Пермского национального исследовательского университета и зоологического музея МГУ (оригиналы и ксерокопии)
Информационная поддержка сообществ, занимающихся экологическим просвещением и популяризацией: Центр популяризации биоразнообразия , сообщество `
Идея проекта была озвучена представителям арахнологического сообщества [Созонтов, 2022] и получила их поддержку
Дорожная карта реализации проекта представлена на рис. 1.
Разработка и тестирование ядра веб-приложения (январь-февраль, Созонтов А.Н., Иванова Н.В.).
Сбор pdf и метаданных публикаций (январь-февраль, Устинова А.Л.).
Разработка и тестирование пользовательского интерфейса и верстка сайта (март-апрель, все исполнители).
Формирование наборов пространственных и таксономических данных (Иванова Н.В., Устинова А.Л.).
Запуск проекта по оцифровке (май, Созонтов А.Н., Соколова С.С.).
Реализация проекта по оцифровке и его оптимизация (июнь-декабрь, Созонтов А.Н., Соколова С.С.).
Разработка модулей для интеграции видовых характеристик и пространственных данных из внешних источников (ноябрь-декабрь).
Работа над рукописью статьи об архитектуре, интерфейсе и функционале веб-приложения (Созонтов А.Н., Иванова Н.В., сентябрь-октябрь).
Предварительный анализ эффективности проекта, подготовка рукописи о нём (ноябрь-декабрь).
Созонтов А.Н.
Разработка и тестирование ядра веб-приложения, разработка пользовательского интерфейса и верстка сайта. Формирование наборов пространственных и таксономических данных. Запуск проекта по оцифровке и руководство им. Работа над рукописями для мобилизации литературных данных о находках биологических организмов, и о Citizen Science проекте по мобилизации данных.
Иванова Н.В.
Разработка и тестирование ядра веб-приложения. Формирование наборов пространственных и таксономических данных. Написание документации и руководства для веб-приложения. Работа над рукописями статей об архитектуре, интерфейсе и функционале веб-приложения для мобилизации литературных данных о находках биологических организмов, и о Citizen Science проекте по мобилизации данных.
Соколова С.С.
Тестирование веб-приложения. Разработка дизайна сайта. Сбор необходимых для проекта pdf и метаданных публикаций. Написание научно-популярных материалов для сайта. Запуск волонёрского проекта по оцифровке. о Citizen Science проекте по мобилизации данных.
Устинова А.Л.
Сбор необходимых для проекта pdf и метаданных публикаций. Написание научно-популярных материалов для сайта. Запуск волонёрского проекта по оцифровке. Работа над рукописью статьи о Citizen Science проекте по мобилизации данных.
Будет разработано и протестировано ядро веб-приложения для оцифровки данных о находках биологических организмов.
Будут собраны необходимые для проекта по оцифровке pdf и метаданные публикаций.
Будут сформированы наборы пространственных данных с иерархической структурой административных регионов, районов и населенных пунктов исследуемого региона
Будет написана основная часть документации и научно-популярных материалов для сайта
Будет запущен волонёрский проект по оцифровке
Будет подготовлена рукопись статьи о архитектуре, интерфейсе и функционале веб-приложения для мобилизации литературных данных о находках биологических организмов.
Будет подготовлена рукопись статьи, описывающей Citizen Science проект по мобилизации данных
Результаты работы первого года будут представлены в виде докладов на двух конференциях всероссийского уровня
Микрофон-петличка и грмокоговоритель для провередния мероприятий (2 комплекта)
Организация дополнительных экскурсий и мастер-классов (через НКО и других партнеров проекта (30 экскурсий ежегодно - 150 т.р.)
Услуги по записи видеозаписи и монтажу роликов и популярных лекций (75 т.р.)
Полиграфические услуги
Ноутбуки для участников проекта
Полевое обмундирование для проведения экскурсий